SLO-Oriented Multi-Cluster LLM Serving
上周进展:
- 阅读了 SkyServe 和 QLM 的开源代码
- 增加调研范围
1. 背景
随着大规模语言模型(LLM)推理服务需求的增长,所需的计算资源(如 GPU)规模不断扩大。为了在更多 GPU 上高效扩展推理服务,目前主要有两种技术路径:
- 单服务扩展:通过增大 PP 或 TP 的规模,减少单卡参数量以存储更多的 KV Cache,从而支持更大的批处理量(batch size),提升系统吞吐。然而,过大的 PP 或 TP 会引入显著的通信开销,成为性能瓶颈。(Eg:Leader Worker Set)
- 多服务扩展 (Multi Server System):部署多个独立的模型推理实例,以数据并行(DP)的方式处理不同请求。与单服务扩展相比,多服务扩展虽然存在参数冗余,但显著降低了通信需求,更适合高并发场景。
为充分利用大规模 GPU 资源并平衡通信效率,多服务扩展成为必要的扩展方案。面临负载均衡、资源利用率优化以及服务质量( 如延迟与公平性)的协同保障,亟需系统层面的设计与优化。
1.1 研究跨地域大模型推理的意义
意义 | 说明 |
---|---|
资源稀缺性 | 单区域可能无法提供足够的 GPU 资源以满足大规模推理需求,跨地域调度可整合分散资源,提升资源可用性。 |
成本优化 | 不同区域的 GPU 定价存在差异,结合竞价实例可进一步降低计算成本。 |
容灾与高可用 | 跨地域部署可避免单点故障,增强服务的鲁棒性。 |
用户就近服务 | 全球分布式部署可降低终端用户的请求延迟,提升体验。 |
1.2 跨地域大模型推理面临的挑战
挑战 | 说明 |
---|---|
负载均衡决策 | 跨区域网络延迟(约数百 ms)远高于同区域(<1ms),可能显著影响推理效率。单一请求的完成时间等于等待时间、Prefill 时间、Decode 时间、以及跨区域网络延迟之和,即。 |
数据同步 | 模型权重等 数据(KV Cache?)的跨地域传输可能引入额外带宽成本与延迟。 |
由于跨地域的推理往往存在更多的时延,考虑面向 SLO 设计智能调度算法。
2. 相关工作
2.1 LLM Serving 时间预测
请求时间预测对于优化调度、降低延迟至关重要。由于 LLM 请求的复杂性,其输出大小难以提前确定,这给预测带来了挑战。目前研究人员提出了多种方法,从不同角度尝试解决这一问题:
- 基于辅助模型的预测
- 分类与回归方法
- 基于排序的方法
- 基于模型特性的预测
- 基于统计学方法的预测
2.1.1 基于辅助模型的预测
方法 | 优点 | 缺点 |
---|---|---|
辅助小 LLM 模型预测 | 能在一定程度上降低响应时间,提供了直接从请求内容预测响应规模的方法。 | 引入额外计算模型增加成本,需更多资源运行辅助模型及原始 LLM 模型。 |
微调 BERT 模型预测 | 利用 BERT 的强大特征提取能力适应预测任务,对自然语言处理任务有良好泛化能力。 | 面对执行时间高度可变的请求时准确性下降,难以全面捕捉影响因素特别是请求复杂性高时。 |
2.1.2 分类与回归方法
方法 | 优点 | 缺点 |
---|---|---|
分类任务预测 | 简单直观,将连续输出大小转化为离散类别,便于处理和分析。 | 只能归类到有限的桶中,无法精确预测具体输出大小,不适合需要精确预测的场景。 |
回归方法预测 | 提供具体的预测值,相较于分类任务能够给出更详细的输出大小估计。 | 面对复杂多变的 LLM 请求时,可能难以准确捕捉各种因素与输出大小之间的关系,影响预测准确性。 |
2.1.3 基于排序的方法
LTR 采用 Learning-to-Rank 方法,它并不直接预测请求的绝对输出大小,而是对请求基于其输出大小进行排序,从而使系统能够优先处理那些剩余令牌较少的请求。
这种方法的优势在于将重点放在请求的相对顺序上,避免了直接预测绝对大小的困难。
但它也存在缺陷,在排序时只考虑了输出大小,忽略了提示的大小。这就可能导致在预填充阶段,当一个输出短但提示长的请求排在前面时,会出现头阻塞现象,影响系统的整体性能。